邀测启动 | 文心百中:大模型驱动的产业级搜索系统
本系列根据 WAVE SUMMIT 2022深度学习开发者峰会「AI 大模型 智领未来」论坛嘉宾分享整理。本文整理自百度主任研发架构师刘凯的主题演讲——文心百中:大模型驱动的产业级搜索系统。
本文将从以下四个部分展开分享:
■ 大模型驱动搜索系统的意义
■ 文心百中的极简、强大、高效
■ 文心百中的应用与体验
■ 文心百中开发者邀测活动
01
大模型驱动搜索系统的意义
▎搜索仍然是非常『难』的事情
搜索这项能力已经深深地融入到各行各业的生产活动中,虽然搜索应用很普遍,但是它仍然是非常难的事情:我们在日常工作生活中作为不同角色,在不同的行业中、不同的场景下,依赖不同的数据,期待找到的结果也是不一样的。
对于用户来说,搜索就是一个搜索框,一个搜索结果页面,非常简单。但是对于开发者来说,搜索可就不是这么简单了,它涉及到的搜索系统和策略非常复杂,要处理的语义理解和具体场景泛化问题也很多、难度也很大,在这些基础上,要建设一个独立的行业搜索引擎的周期非常长,成本非常高。
▎有了『大』模型,搜索『大』可非常简单
我们新开放的产品『文心百中』,是一个大模型驱动的新一代的产业级搜索系统,它真的做到了『有了‘大’模型、搜索‘大’可非常简单』这件事。
传统意义上关于搜索系统一系列的难题,都被压缩到了基于大模型的搜索系统中,文心百中采用一种端到端向量化搜索范式的搜索系统。从使用者的角度看来,大家就只需要关心搜索 query 和搜索结果,非常简单。
这个系统有三大特点:极简、强大和高效。在策略和系统上,我们做到了极简,在效果和场景化能力上,我们的模型非常强大,同时我们能够以更低的成本和更高的效果提供搜索引擎的建设能力。
02
文心百中的极简、强大、高效
▎极简:
■ 模型极简
为什么我们能够做到极简?首当其冲的是模型可以极简化,一个文心大模型目前可以替代以往大量的传统搜索策略。例如常规的搜索策略需要解决 query 理解、内容理解、初筛、精排、权威性、时效性等几大类问题,每类问题往往又需要大量的词典、模型及各种类型的策略才能解决。每一个小的策略几乎都要有专人去解决,需要专业性非常强,人力成本极高,优化闭环也非常长。
用了大模型之后,几乎所有类型的问题和策略都交给大模型去解决了,一个模型就解决绝大部分问题。并且优化过程非常简单,只需要用户标注搜索结果的对错即可,门槛非常低。
我们在验证优化成本的过程中,保守估计有10倍左右的成本差异,在比较极端的情况下,可能会有百倍甚至千倍的成本差距。因此大模型能让我们做到极简的同时成本也很低。
■ 架构极简
策略极简带来的另外一个好处就是架构的极简化。架构的研发和运维成本可以降低到一个新的量级。原先由于策略复杂,可能会导致传统的完整的搜索架构多至几十个模块,这么多模块之间的调度关系、分模块运维、系统稳定性保障都是非常大的挑战。
我们采取极简的大模型、端到端的策略及架构设计,实现架构模块只需要十个左右。刨去一些业务管理和调度模块,我们仅仅需要关注图上这三大模块就行了,核心模块变少了,架构的研发、运维成本都降低到了一个新的量级。
■ 产品极简
文心百中的产品设计也做到了极简化,方便各行各业的同仁用到自己的行业和场景中。我们产品设计理念就是一步部署、三步上线。部署很简单,一行命令就可以开启云原生搜索体验。上线也很简单,只需要配置一下搜索需要索引的字段名称的 schema,然后批量或者增量导入数据后,就可以直接搜索体验了。
如果效果没有问题,产品可以直接上线,无需其他更多操作。如果效果不符合预期,我们也提供非常简易的效果优化能力和接口,用非常短的闭环就可以完成优化。这些界面都是我们产品的真实界面,也可以以命令行、API 的方式使用,门槛非常低。
▎强大:
■ 强大的理解能力
大模型的语义理解能力非常强大,几乎可以做到在搜索时不再需要担心语义问题。例如下图左边的雷达图,我们在实际的业务中测试,在不同类型的语义问题下,大模型的方案都是完胜传统技术方案,几乎可以说是『六边形』的全能战士!
举两个例子:
首先,在否定和反义方面,我们往往会遇到『哪些植物的叶子不是绿色的』这种问题,如果用普通搜索能力,关键词完全命中还好说,也许能给出相关答案,但是绝对给不出百中的答案——彩叶植物的结果。用户问不是绿色的叶子,我们能帮你找到彩叶植物,语义理解能力就是这么强。
其次是老生常谈但又非常棘手的语序问题,例如 word 转 pdf 这种的,传统方案出的结果经常犯语序颠倒的错误,而百中几乎不会犯这类错误,我们的效果几乎实现拿来即用,做到不再需要担心语义问题。
■ 强大的搜索效果
到此,大家可能会说,这些问题都是百度搜索会遇到的问题,在具体的行业里不一样。因此我们在多达二十多个场景中均尝试过我们的产品和能力,发现百中产品在各种场景下均有非常显著的效果优势,且是非常显著的质变优势。这些都非常充分地验证了我们的产品具备强大的行业场景的业务迁移能力。
▎高效:
■ 高效的对接能力
在实际对接各行各业搜索业务的过程中,不同用户的数据的结构差距很大。如果都是一一适配各种异构数据输入的话,成本非常高。而基于我们大模型的语义理解能力,以及极简的产品化设计,实现了非常高效的搜索数据对接能力。不同类型的异构数据,我们采用一套模型、一套接口即可满足。
例如我们在建设搜索系统的时候,经常遇到的表格类型的格式化数据,对此我们只需要按照比较可以理解的形式建设数据灌库索引字段入库,即可直接搜索出结果,而且可以建各种不同类型和格式的数据,非常灵活。
■ 高效的定制能力
由于灵活的对接能力、强大的模型能力以及极简的产品设计,百中实现了极其高效的从零开始建设搜索系统的能力。使得搜索系统建设及优化成本降低到一个非常低的水平。
例如我们刚刚提到的各种行业搜索系统,这些搜索系统的定制开发和实现上线的周期或者人力成本能够压缩90%以上,意味着原来需要十个人的,现在只需要一个人就搞定了。
另外,虽然不同行业的使用效果不同,都需要不同程度的优化,但是由于我们模型效果好,具备小样本能力,优化门槛也很低。实际需要做行业迁移的标注数据量也非常非常低,甚至在部分场景完全不需要定制优化,直接产品部署上线,流程非常短,整体上成本降低是超过90%的。
03
文心百中的应用与体验
以上所有能力大家都可以在线上体验和线下私有化部署体验,我们在线上提供了很多不同类型的搜索案例体验,并支持大家自定义上传数据,建立一个小的搜索系统的体验模式。
更多案例,大家可以登入官网了解和体验:
https://wenxin.baidu.com/baizhong/index/
我们诚邀产业界共同探索,发掘大模型驱动搜索的更多可能性和更多场景!
本次发布的搜索能力主要集中在文字层面的搜索能力,由于向量化搜索范式天然地支持几乎所有类型模态的数据,并且文心大模型也是具备越来越强的多模态跨模态能力。对此,文心百中也将会提供更多不同模态和场景的搜索能力,大家尽请期待!
04
文心百中开发者邀测活动
文心百中现面向开发者正式启动邀测活动,只要你有典型的搜索应用场景与数据,即可报名参与!
文心百中是百度搜索与文心大模型联合研制的最新产品,也是端到端向量化搜索范式的搜索系统,成为百中产品体验官,你将有机会免费获得文心百中私有化部署服务,构建低成本、高质量、方便迁移的新一代语义搜索系统。
最后,欢迎大家加入文心百中交流群,共同探索大模型应用的诸多可能性!(文心大模型小助手:wenxinhelp)